ارائه یک طبقه بند مبتنی بر درخت تصمیم برای داده های جریانی با قابلیت تشخیص تغییر مفهوم

پایان نامه
چکیده

داده های جریانی داده هایی هستند که به مرور زمان و در حجم زیاد تولید می شوند، به طوری که امکان ذخیره نمودن تمام آن ها در یک مکان وجود نداشته و نیاز به پردازش آن در زمان محدود است. امروزه به دلیل گستردگی کاربرد، کاوش داده های جریانی از اهمیت فزاینده ای برخوردار است. در روش های سنتی طبقه بندی فرض می شود که داده ها دارای توزیع ایستا می باشند. در حالی که این فرض برای کاربردهای اخیر که در آن حجم بزرگی از داده ها با سرعت بالا تولید می شوند صحیح نمی باشد. از این رو دیگر الگوریتم های کلاسیک طبقه بندی برای حل چالش های این گونه داد ه ها مناسب نیستند، در واقع ویژگی هایی همچون ورود پیوسته، لزوم طبقه بندی سریع، تکامل داده ها و وقوع تغییر مفهوم منجر به ضرورت ایجاد تکنیک های متفاوتی شده است. در این پایان نامه جهت طبقه بندی داده های جریانی در حضور تغییر مفهوم یک رهیافت جدید مبتنی بر درخت تصمیم ارائه شده است. در الگوریتم پیشنهادی به منظور ساخت درخت های کوچک تر و توجه به پدیده تکامل کلاس ها، از معیار تقسیم مبتنی بر کلاس استفاده شده است. همچنین جهت افزایش سرعت طبقه بندی، از روش تعیین نقطه تقسیم بر مبنای توزیع برچسب کلاس استفاده شده است. استفاده از روش فوق برای نخستین بار در بین صفات اسمی انجام گرفته است. روش پیشنهادی در این پایان نامه در جهت تشخیص تغییر مفهوم استفاده از نمودارهای کنترل کیفی در یادگیرنده های بیزی ساده ی ساخته شده در برگ-های درخت تصمیم می باشد. برای ارزیابی کارایی الگوریتم از داده های آزمایشگاهی و واقعی استفاده شده است و نتایج حاصل از آن نشان می دهد که الگوریتم ارائه شده مزیت هایی از نظر صحت، اندازه درخت و زمان تشخیص تغییر مفهوم نسبت به الگوریتم های موجود دارد.

منابع مشابه

ارائه یک سیستم طبقه بندی کننده چندگانه فازی برای ادغام داده های فراطیفی و لیدار

محدودیت­های سنجنده­های مختلف سنجش از دور و ضعف آنها در شناسایی عوارض مختلف باعث شد ادغام داده­های حاصل از سنجنده­های مختلف به منظور بهبود نتایج طبقه بندی مورد توجه قرار گیرد. در میان سنجنده­های مختلف کنونی، در سال­های اخیر دو سنجنده فراطیفی و لیدار به منظور طبقه­بندی زمین بسیار پرکاربرد بوده­اند. داده­های حاصل از لیدار اطلاعات ارتفاعی مناسبی را از عوارض زمینی به ویژه عوارض دارای ارتفاع مانند سا...

متن کامل

تشخیص بیماری دیابت نوع2 با استفاده از درخت تصمیم C4.5

مقدمه: یکی از شایع‌ترین بیماری‌ها در دنیای امروز بیماری دیابت است و سالانه شیوع دیابت در سطح جهان حدود  درصد افزایش می‌یابد. استفاده از تکنیک‌های داده‌کاوی برای ایجاد مدل‌های پیشگویی کننده، جهت شناسایی افراد در معرض خطر برای کاهش عوارض ناشی از بیماری بسیار کمک‌کننده است. در این پژوهش با استفاده از درخت تصمیم C4.5 به روش‌های پیشگیری و تشخیص این بیماری پرداخته شد. روش:  در این پژوهش کاربردی- توصی...

متن کامل

تشخیص بیماری دیابت نوع2 با استفاده از درخت تصمیم C4.5

مقدمه: یکی از شایع‌ترین بیماری‌ها در دنیای امروز بیماری دیابت است و سالانه شیوع دیابت در سطح جهان حدود  درصد افزایش می‌یابد. استفاده از تکنیک‌های داده‌کاوی برای ایجاد مدل‌های پیشگویی کننده، جهت شناسایی افراد در معرض خطر برای کاهش عوارض ناشی از بیماری بسیار کمک‌کننده است. در این پژوهش با استفاده از درخت تصمیم C4.5 به روش‌های پیشگیری و تشخیص این بیماری پرداخته شد. روش:  در این پژوهش کاربردی- توصی...

متن کامل

تشخیص بیماری تب کریمه‌کنگو با استفاده از درخت تصمیم C4.5

مقدمه: با شروع فصل تابستان، بیماری بین انسان و حیوان، یعنی تب کریمه‌کنگو به سرعت شیوع پیدا می‌کند. تشخیص این بیماری با استفاده از آزمایش‌های لازم، در کمترین حالت زمانی حدود یک هفته به طول می‌انجامد. روش‌های داده‌کاوی و یادگیری ماشین متعددی برای ایجاد مدل‌های پیشگویی‌کننده جهت شناسایی افراد در معرض خطر وجود دارد. در این پژوهش از درخت تصمیم C4.5 به دلیل سادگی و کارآمدی‌‌اش به منظور تشخیص این بیما...

متن کامل

تشخیص بیماری تب کریمه‌کنگو با استفاده از درخت تصمیم C4.5

مقدمه: با شروع فصل تابستان، بیماری بین انسان و حیوان، یعنی تب کریمه‌کنگو به سرعت شیوع پیدا می‌کند. تشخیص این بیماری با استفاده از آزمایش‌های لازم، در کمترین حالت زمانی حدود یک هفته به طول می‌انجامد. روش‌های داده‌کاوی و یادگیری ماشین متعددی برای ایجاد مدل‌های پیشگویی‌کننده جهت شناسایی افراد در معرض خطر وجود دارد. در این پژوهش از درخت تصمیم C4.5 به دلیل سادگی و کارآمدی‌‌اش به منظور تشخیص این بیما...

متن کامل

ارائه ی مدلی مبتنی بر داده کاوی برای پیش بینی جذب مشتری با استفاده از درخت تصمیم در «مدیریت ارتباط با مشتری»

در دنیای رقابتی و کیفیت گرای امروز، جذب مشتری از اهمیت زیادی برخوردار است. از این رو، «مدیریت روابط با مشتری» به عنوان هسته ی اصلی استراتژی سازمان در چهار بعد: شناسایی، جذب، نگه داری و رضایت مشتری به ایفای نقش می پردازد. سازمان ها با تجزیه و تحلیل چرخه ی زندگی مشتری به افزایش ارزش مشتری دست یافته اند. این ادبیات با کاربرد عملی داده کاوی در شناسایی مشتریان بالقوه، سعی دارد که معیارهای شناسایی ای...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه زنجان - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023